登入
關鍵字
#AI 處理器
官方認證
美股艾大叔
2025/09/16
•
這一戰,Google準備了十年
9月3日,一則消息在科技圈引起了軒然大波:Google開始對外出售TPU了。據報導,Google近期已在接觸那些主要租賃輝達晶片的小型雲服務提供商,敦促他們在其資料中心也託管Google自家的AI處理器,也就是TPU。Google已與至少一家雲服務提供商——總部位於倫敦的Fluidstack——達成協議,將在紐約的一個資料中心部署其TPU。Google的努力不止於此。據報導,該公司還向其他以輝達為核心的服務商尋求類似的合作,其中包括正在為OpenAI建造資料中心的Crusoe,以及向微軟租賃晶片並與OpenAI簽有供應合同的輝達“親兒子”CoreWeave。9月9日,花旗分析師因TPU競爭加劇將輝達目標價下調至200美元,預計2026年GPU銷售額將因此減少約120億美元。明眼人都能看出來的是,Google和輝達之間的大戰,已經開始了。而它們爭奪的,將是AI計算這個真正的兆美元市場。然而,Google對這一戰的準備,其實比我們想像的都要久。01. TPU,AI計算的最優解?早在2006年,Google的內部就討論過在自家的資料中心中部署GPU、FPGA或ASIC的可能性。不過,當時只有少數應用程式能夠在這些特殊硬體上運行,而Google大型資料中心的過剩算力也完全夠它們使用了。因此,部署特殊硬體的計畫被擱置。然而,到了2013年,Google的研究人員發現:如果人們每天使用語音搜尋並通過深度神經網路進行3分鐘的語音識別,那麼當時Google的資料中心需要雙倍的算力才能滿足日益增長的計算需求。而如果僅通過擴巨量資料中心規模來滿足算力需求,不但耗時,而且成本高昂。於是,在這個背景下,Google開始了TPU的設計。Google的TPU是為AI計算而生的ASIC晶片,它專注於實現兩個核心目標:極高的矩陣乘法吞吐量與卓越的能效。為了實現高吞吐量,TPU在硬體層面採用了“脈動陣列”(Systolic Array)架構。該架構由大量簡單的處理單元(PE)構成網格。資料流從陣列的邊緣輸入,在每個時鐘周期同步地、一步步地流經相鄰的處理單元。每個單元執行一次乘法累加運算,並將中間結果直接傳遞給下一個。這種設計使得資料在陣列內部被高度復用,最大限度地減少了對高延遲、高功耗主記憶體的訪問,從而實現了驚人的處理速度。而其卓越能效的秘訣,則在於軟硬體協同的“提前編譯”(Ahead-of-Time Compilation)策略。傳統的通用晶片需要高能耗的快取來應對多樣的、不可預測的資料訪問。TPU則不同,它的編譯器在程式執行前就完整規劃好了所有資料路徑,這種確定性使其無需複雜的快取機制,從而大幅降低了能耗。在TPU的設計上,Google主導整體架構與功能定義,博通Broadcom參與了部分晶片的中後端設計工作,目前,Google TPU主要由台積電代工生產。隨著大語言模型參數的急劇擴張,AI計算任務正在從“訓練”走向“推理”。這時,作為通用算力單元的GPU,開始顯露出成本以及功耗過高的問題。而TPU從設計之初就專門瞄準了AI計算,具有很高的性價比優勢。據報導,GoogleTPU算力成本僅為OpenAI使用GPU成本的1/5,性能功耗比更是優於同代GPU。因此,為了抓住市場,Google圍繞著自己的TPU架構,打造了一系列產品與生態。02. Google造芯這十年Google第一代TPU (v1) 於2015年推出,通過高度簡化的專用設計,實現了超越同期CPU與GPU的能效比,並在AlphaGo等項目中展示了其高效能,從而驗證了AI ASIC的技術路徑。隨著研發深入,訓練環節的算力瓶頸日益凸顯,促使TPU的設計方向轉向系統級解決方案。2017年發佈的TPU v2為此引入了BF16資料格式以支援模型訓練,並配置了高頻寬記憶體(HBM)。更為關鍵的是,v2通過定製的高速網路將256個晶片單元互聯,首次建構了TPU Pod系統。隨後的TPU v3通過增加計算單元數量和引入大規模液冷技術,實現了性能的顯著提升。TPU v4的發佈帶來了互聯技術的重大革新,其核心是採用了光學電路交換(OCS)技術,實現了TPU Pod內部網路拓撲的動態重構,從而提升了大規模訓練任務的容錯能力與執行效率。進入v5與v6 (Trillium) 階段,TPU產品線呈現出分化策略,形成了分別側重於極致性能的'p'系列與能效比的'e'系列,以適應多樣化的AI應用場景。2025年Google TPU的全年出貨量預計為250萬片。v5系列總出貨量預計為190萬⽚,其中v5e佔⽐約120萬⽚,v5p佔⽐約70萬⽚, v6系列預計總出貨量為60萬⽚,⽬前僅v6e在市場上銷售,⽽v6p將在第四季度上市,約10-20萬⽚左右。預計到2026年,總體TPU銷量將超過300萬片。在今年的Google雲大會上,Google發佈了第七代TPU,代號“Ironwood”。Ironwood是Google迄今為止性能最強、能效最高且最節能的TPU晶片,其峰值算力達到4614 TFLOPs,記憶體容量為192GB,頻寬高達7.2 Tbps,每瓦峰值算力為29.3 TFLOPs。此外,Ironwood首次支援FP8計算格式,並在張量核和矩陣數學單元中實現這一功能,這使得其在處理大規模推理任務時更加高效。Ironwood最高配叢集可擁有9216個液冷晶片,峰值算力可達42.5 ExaFLOPS,是世界上最大的超級電腦El Capitan的24倍以上。其支援大規模平行處理和高效記憶體訪問,適用於複雜的推理任務如大型語言模型和混合專家模型。事實上,Ironwood的整體性能已經十分接近輝達B200,甚至在一些方面還有所超越。當然,輝達的統治力不僅在於其硬體性能,更在於整個CUDA生態。Google深知這一點,因此,它也建構了JAX這樣的,能在TPU上運行的高性能計算Python庫。Google還發佈了其模型流水線解決方案“Pathway”,用於向外部開發者訓練大型語言模型(LLM)。將其作為訓練模型的必備手冊,研究人員無需重新設計模型即可開發Gemini等LLM。有了上述的一整個“軍火庫“,Google終於可以和輝達掰掰手腕了。03. Googlevs輝達投資銀行D.A. Davidson分析師Gil Luria在最新報告中指出,過去一年以來Google母公司Alphabet大幅縮小與輝達的差距,如今已成為“最好的輝達替代方案”。報告顯示,過去半年,圍繞Google Cloud TPU的開發者活躍度激增了約96%。Gil Luria與前沿AI實驗室的研究人員和工程師交流後發現,業內普遍看好GoogleTPU。因此Luria認為,若Google將TPU業務與DeepMind部門合併並將它們分拆上市,估值或將高達9000億美元。AI獨角獸Anthropic此前使用亞馬遜的Trainium晶片來訓練模型,最近,該公司被發現正在招聘TPU核心工程師;馬斯克旗下的人工智慧公司xAI也對採購TPU表現出興趣。這一切都說明了業界對於TPU的認可。而Google自身也在積極行動。首先,Google有意在公司內部進行從輝達GPU到自研TPU的迭代。Omdia資料顯示,2024年估計Google訂購16.9萬台Hopper 架構GPU,在五大雲廠商中排名最後,約為微軟的三分之一。同時,Google內部已部署了約150萬顆TPU。Google的對外戰略,就是文章開頭提到的,對那些使用輝達晶片的資料中心供應TPU。據報導,為了與Floydstack達成合作,Google將提供最高32億美元的備選擔保支援,若Fluidstack無力支付紐約新資料中心的租賃費用,Google將補足差額。根據野村證券最新報告,預計到2026年,ASIC總出貨量很可能會第一次超過GPU。而TPU正是目前最成熟的ASIC。輝達需要緊張起來了。04. 結語市場對GoogleTPU的積極接受,反映出越來越多的公司想擺脫輝達“一卡難求“的困境,尋求更高的性價比和更多元、穩定的供應鏈。而借此機會挑戰輝達的,也不只有Google一家公司。供應鏈資料顯示,Meta將於2025年第四季度推出其首款ASIC晶片MTIA T-V1。它由博通設計,具有複雜的主機板架構,並採用液冷和風冷混合技術。到2026年年中,MTIA T-V1.5將進行進一步升級,晶片面積將翻倍,超過輝達下一代GPU Rubin的規格,其計算密度將直接接近輝達的 GB200 系統。2027年的MTIA T-V2可能會帶來更大規模的CoWoS封裝和高功率機架設計。報告指出,根據供應鏈估計,Meta的目標是到2025年底至2026年實現100萬至150萬件ASIC出貨量。微軟、亞馬遜同樣有自研的ASIC晶片,正在對這片被GPU霸佔的市場虎視眈眈。對此,輝達也有自己的反擊手段。今年5月,輝達正式發佈NVLink Fusion。NVLink Fusion允許資料中心將輝達GPU與第三方CPU或定製化AI加速器混合使用,標誌著輝達正式打破硬體生態壁壘。近日,輝達執行副總裁暨首席財務官Colette Kress在高盛組織的會議上談及了對於AISC晶片所帶來的競爭看法,稱輝達GPU更具性價比。一場大戲已經拉開了帷幕。無論是兆美元的市場規模,還是未來AI時代硬體結構的定義權,都值得幾大巨頭為之瘋狂。這一戰,誰都有不能輸的理由。 (半導體產業縱橫)
#Google
#TPU
#輝達晶片
291人
讚
留言
分享
官方認證
北風窗
2025/08/28
•
中國晶片據報明年產量擬三倍擴張 力減對輝達依賴
英國金融時報今日援引知情人士消息稱,中國晶片製造商正計畫在明年將國內人工智慧(AI)處理器總產量提高至三倍,顯示中國加快腳步追趕美國,並試圖減少對輝達的依賴,力求突破最先進 AI 技術領域。新產能一旦全面開出,規模可能超越中國最大晶圓代工企業中芯國際目前同類產線的總產量。消息人士指出,中芯也計畫在明年將7奈米製程晶片的產能翻倍,而華為正是該公司此類處理器線路的最大客戶。這樣一來,寒武紀、摩爾執行緒(MetaX)、壁仞(Biren)等規模較小的中國晶片設計公司,將能獲得更多中芯產能配置,在美國限制輝達高階晶片出口後,填補中國市場的需求缺口。半導體已成為中美貿易摩擦的核心。美國嚴格限制中國取得輝達最先進的AI處理器,試圖遏止中國AI發展。不過,一名中國晶片業主管表示:“隨著新產能陸續到位,國產供應不會再是長期問題。” (格隆匯電報)
#中國晶片
#輝達
#AI處理器
291人
讚
留言
分享
官方認證
北風窗
2025/06/18
•
華為下一代AI晶片 升騰910D曝光
據Wccftech報導,華為正在開發一款新型AI處理器,旨在與NVIDIA H100 GPU競爭。這款晶片被命名為升騰910D,其設計採用4個裸晶片(chip die),性能預計較目前高端的升騰910C大幅提升。(華為“四晶片封裝”技術曝光)調查報告顯示,華為擁有約200萬顆裸晶片庫存,這些晶片可能被用於生產高性能晶片。據傳,這些裸晶片是在美國政府出口禁令生效前採購的。裸晶片是單一晶片,通過封裝技術組合成多晶片模組,用於製造先進AI GPU。升騰910C AI處理器目前使用2個升騰AI裸晶片封裝而成,而下一代升騰910D則計畫封裝4個裸晶片,以實現更高的性能。國內消息人士透露,升騰910D的性能可能超越NVIDIA H100。NVIDIA H100於2022年推出,其前身A100曾被OpenAI用於訓練ChatGPT。此外,升騰910系列的後續型號升騰920也被曝光。據稱,升騰920將採用雙裸晶片設計,並可能相容NVIDIA產品。這款晶片可能基於GPU架構,進一步擴展典型GPU的性能。預計升騰920將在2027年開始小規模出貨。 (芯榜+)
#華為
#AI晶片
#升騰910D
241人
讚
留言
分享
官方認證
RexAA
2025/04/25
•
華為AI叢集性能超越輝達GB200!
在無法使用最先進的工藝技術生產高端人工智慧處理器的情況下,華為採取了一種“以數量換性能”的策略,通過增加處理器數量來實現與行業競爭對手相當的性能。這一策略包括採用雙晶片HiSilicon Ascend 910C處理器、光互連技術以及華為AI CloudMatrix 384機架級解決方案,該方案依賴於專有軟體,據SemiAnalysis報導,整個系統雖然在每瓦性能上比輝達的GB200 NVL72低2.3倍,但仍然能夠使中國企業訓練先進的AI模型。華為CloudMatrix 384系統概述華為的CloudMatrix 384是一個機架級AI系統,由384個Ascend 910C處理器組成,這些處理器通過全光、全互連的網格網路排列。系統跨越16個機架,包括12個電腦架(每個機架容納32個加速器)和4個網路機架,用於通過6912個800G LPO光收發器實現高頻寬互連。與傳統使用銅線進行互連的系統不同,CloudMatrix完全依賴光互連技術,實現極高的聚合通訊頻寬。CloudMatrix 384是一款企業級裝置,具備容錯能力,並且設計上支援可擴展性。在性能方面,CloudMatrix 384提供約300 PFLOPs的密集BF16計算能力,幾乎是輝達GB200 NVL72系統的兩倍(後者提供約180 BF16 PFLOPs)。此外,該系統還提供2.1倍的總記憶體頻寬,儘管使用的是HBM2E,但HBM容量超過輝達3.6倍。該機器還具有2.1倍更高的擴展頻寬和5.3倍的擴展頻寬,這得益於其光互連技術。然而,這些性能優勢並非沒有代價:該系統每FLOP的功耗效率比輝達低2.3倍,每TB/s記憶體頻寬的效率低1.8倍,每TB HBM記憶體的效率低1.1倍。但這些並不重要,因為中國企業(包括華為)無論如何都無法獲得輝達的GB200 NVL72。因此,如果他們想要獲得真正高性能的AI訓練,他們將願意投資華為的CloudMatrix 384。華為HiSilicon Ascend 910C處理器當華為的HiSilicon Ascend 910C處理器首次曝光時,它被認為是一個計算晶片,由中芯國際(SMIC)生產,其I/O介面用於連接I/O晶片。然而,事實證明,HiSilicon Ascend 910C是一個雙晶片處理器,帶有八個HBM2E記憶體模組,沒有類似AMD Instinct MI250X和輝達B200的I/O晶片。該單元提供780 BF16 TFLOPS,相比之下,MI250X為383 BF16 TFLOPS,B200為2.25至2.5 BF16 TFLOPS。HiSilicon Ascend 910C是為大規模訓練和推理工作負載而設計的,使用先進的EDA工具,並且可以使用7奈米級工藝技術生產。SemiAnalysis報告稱,儘管SMIC可以為Ascend 910C生產計算晶片,但華為使用的大多數Ascend 910C晶片是由台積電通過涉及第三方實體(如Sophgo)的變通方法生產的,這使得華為能夠在美限制下獲得晶圓。據估計,從2023年到2025年,華為獲得了超過一百萬個Ascend 910C處理器的晶圓。然而,隨著SMIC能力的提升,華為可以將更多生產外包給國內代工廠。Ascend 910C使用HBM2E記憶體,其中大部分來自三星,通過另一個代理CoAsia Electronics採購。CoAsia將HBM2E元件運往Faraday Technology,這是一家設計服務公司,然後與SPIL合作組裝HBM2E堆疊和低性能16奈米邏輯晶片。這些組裝件在技術上符合美國出口管制,因為它們沒有超過美國法規規定的任何閾值。系統級封裝(SiP)單元被運往中國,然後將HBM2E堆疊拆焊,重新安裝在華為的Ascend 910C SiP上。從性能角度來看,Ascend 910C在每個晶片的基礎上遠不如輝達最新的B200 AI GPU強大,但華為的系統設計策略通過增加每個系統的晶片數量來彌補這一差距。更多處理器 = 更高性能正如其名稱所示,CloudMatrix 384是一個由384個Ascend 910C AI處理器組成的高密度計算叢集,物理上組織成一個16機架系統,每個機架有32個AI加速器。在這個佈局中,12個機架用於計算模組,而另外4個機架用於通訊交換。與輝達的架構類似,所有Ascend 910C都可以相互通訊,因為它們通過自訂網格網路互連。然而,CM384的一個顯著特點是其完全依賴光鏈路進行機架內和機架間的內部通訊。它整合了6912個線性可插拔光(LPO)收發器,每個收發器的速率高達800 Gbps,總內部頻寬超過5.5 Pbps(687.5 TB/s),具有低延遲和最小訊號完整性損失。該系統支援向上擴展和向外擴展拓撲結構:通過384個處理器內的全網格實現向上擴展,通過額外的叢集間連接實現向外擴展,這使得該系統能夠在更大的超大規模環境中部署,同時保持緊密的計算整合。擁有384個處理器,華為的CloudMatrix 384提供了300 PFLOPs的密集BF16計算性能,比輝達的GB200 NVL72高出166%。然而,CM384的總系統功耗(包括網路和儲存)約為559千瓦,而輝達的GB200 NVL72消耗145千瓦。因此,輝達的解決方案比華為的解決方案提供了2.3倍的更高功耗效率。然而,正如前面提到的,如果華為能夠大規模交付其CloudMatrix 384,並提供適當的軟體和支援,其客戶將不會關心系統的功耗。 (晶片行業)
#華為
#輝達
#AI模型
255人
讚
留言
分享
官方認證
小小天下
2025/02/10
•
突發!台積電斷供14/16nm,1月底先進製程禁令生效
【新智元導讀】16/14nm先進製程斷供中國突如其來。傳言稱,台積電已從1月31日起,正式實施新規,要求16nm以下晶片的封裝必須由美國批准的OSAT企業完成,否則將暫停出貨。 傳言稱,台積電(TSMC)限制14/16nm向中國大陸發貨。 這一決定,並非空穴來風。 此前,曾有報導稱,台積電晶片被用於國內的AI處理器,引發了美國政府強烈的反應。
#台積電
#AI處理器
#暫停出貨
241人
讚
留言
分享
官方認證
RexAA
2024/08/15
•
外媒:Arm打造新GPU,叫板輝達
據外媒透露,英國晶片巨頭 ARM 正在以色列開發一款圖形處理器 (GPU),將與 Nvidia 和英特爾展開競爭。據估計,ARM 在其位於拉阿納納的開發中心的全球圖形處理小組中僱傭了大約 100 名晶片和軟體開發工程師。 據報導, 目前ARM 正致力於視訊遊戲市場的圖形處理,同時,如果 ARM 決定全面進入該領域,該技術也可用於人工智慧處理,就像 Nvidia 的情況一樣。 ARM 的運作方式與其他晶片公司不同,它不開發或製造自己的處理器,而是開發自己的智慧財產權或晶片開發軟體,然後出售給晶片公司,晶片公司根據自己的需求對其進行調整,並將其整合到自己的獨特技術中。就這樣,ARM 成為了晶片行業的“瑞士”——它為所有人提供軟體,但並不與它們競爭——儘管這種情況可能很快就會改變。該公司的客戶包括高通(其晶片嵌入了所有三星裝置)、台灣的聯發科(MTK)和蘋果。Nvidia 也使用 ARM 技術,儘管不是在 GPU 領域。 據瞭解,ARM在遊戲領域的技術已應用於手機和平板電腦的處理器中,其中就包括高通生產的處理器。包括King、Riot Games、War-Gaming和中國騰訊在內的遊戲公司都與ARM合作,以提升基於其技術生產的晶片上的遊戲性能。
#Arm
#GPU
#AI 處理器
212人
讚
留言
分享
官方認證
林昌興(興哥)
2024/07/10
•
EP224 華爾街愛台積電棄輝達
AI首選股台積電被看好 目標價1200元 New Street對台積電持樂觀看法,稱其增長趨勢和估值都令人看好。 New Street在報告中表示,台積電是「該領域中最值得持有的股票,在我們的基本和樂觀情境中都提供了強勁的上行潛力。」。 據費拉古評估,12個月後,台積電每股股價上看新台幣1,200元,亦即比目前價位再漲大約19%。他給2026年台積電目標股價為新台幣1,470元。
#台積電
#華爾街
#超微
238人
讚
留言
分享
官方認證
林昌興(興哥)
2024/05/09
•
已編輯
興哥就事論事EP211 美國又對華為開刀!
美收緊對華為管制 吊銷部分許可證 美國撤銷英特爾 高通向華為供應晶片許可 日經新聞2024/5/8引述英國金融時報的報導指出,美國商務部已取消對華為的半導體出口許可,對象據悉是使用於筆電、智慧手機的半導體產品,藉此限制對華為的半導體供應。美國英特爾、高通對華為的出口許可已被取消。這一決定代表美國限制中國取得半導體技術的最新行動。 拜登政府另外也在考慮對6家被懷疑向華為供應晶片的中國公司實施制裁。
#美國
#華為
#AI
229人
讚
留言
分享